Проект: "Исследование рынка заведений общественного питания Москвы"

Цель проекта: подготовить аналитическое исследование заведений общественного питания Москвы для инвесторов, чтобы они смогли принять решение о том, какого типа заведение и в каком районе города будет наиболее перспективным.

Данные для аналитического кейса представлены датасетом moscow_places.csv, содержащим информацию об имеющихся на лето 2022 года заведениях общепита Москвы:

name — название;

address — адрес;

category — категория заведения («кафе», «пиццерия», «кофейня» и др.);

hours — информация о днях и часах работы;

lat — широта географической точки, в которой находится заведение;

lng — долгота географической точки, в которой находится заведение;

rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);

price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;

avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:

"Средний счёт: 1000–1500 ₽";

"Цена чашки капучино: 130–220 ₽";

"Цена бокала пива: 400–600 ₽".

middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки "Средний счёт";

middle_coffee_cup — число с оценкой стоимости одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки "Цена одной чашки капучино";

chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (1 - сетевое, 0 - не сетевое), для маленьких сетей могут встречаться ошибки;

district — административный район, в котором находится заведение, например Центральный административный округ;

seats — количество посадочных мест.

План выполения проекта:

1. Загрузить данные и выполнить их первичный просмотр.

2. Выполнить предобработку данных (пропуски, дубликаты).

   2.1. Создать дополнительный столбец `street` с названиями улиц, на которых расположены заведения.

   2.2. Создать дополнительный столбец `is_24\7` с обозначением, что заведение работает ежедневно и круглосуточно 
(True - если ежедневное и круглосуточное, False - если нет).

3. Выполнить исследовательский анализ данных, ответив на следующие вопросы:

   3.1. Какие категории заведений присутствуют в датасете? Как распределены заведения по категориям?

   3.2. Как распределено количество посадочных мест в заведениях по категориям?

   3.3. Каково соотношение сетевых и несетевых заведений в датасете?

   3.4. Какие категории заведений чаще являются сетевыми?

   3.5. Каковы топ-15 самых популярных сетевых заведений?

   3.6. Какие административные районы Москвы присутствуют в датасете? Каково общее количество заведений и количество заведений в каждой категории по районам?

   3.7. Каково распределение средних рейтингов по категориям заведений? Сильно ли различаются средние рейтинги в разных типах общепита?

   3.8. Построить фоновую картограмму (хороплет) со средним рейтингом заведений каждого района, взяв данные о границах районов из файла `admin_level_geomap.geojson`

   3.9. Используя кластеры библиотеки `folium`, отобразить все заведения из датасета на карте.

   3.10. Найти топ-15 улиц по количеству заведений. Построить график распределения количества заведений и их категорий по улицам.

   3.11. Найти улицы, на которых есть только один объект общепита. Что это за заведения?

   3.12. Найти медиану среднего чека заведений для каждого района как ценовой индикатор района. Построить хороплет  полученными значениями для каждого района. Проанализировать, как удаленность от центра влияет на цены в заведениях?

   3.13. Проанализировать иные взаимосвязи в данных. Например, часы работы заведений и их зависимость от расположения и категории заведения.

   3.14. Сделать общий вывод по выполненному исследовательскому анализу.

4. Детализировать исследование под открытие кофейни, дав ответы на вопросы:

   4.1. Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?

   4.2. Есть ли круглосуточные кофейни?

   4.3. Какие у кофеен рейтинги? Как они распределяются по районам?

   4.4. На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

   4.5. Расширить анализ ответами на собственные вопросы. На основе полученных результатов дать рекомендации по открытию кофейни.

5. Подготовить презентацию в формате PDF, выбрав важные тезисы и наблюдения, которые могут заинтересовать заказчиков. Приложить ссылку на презентацию в markdown-ячейке.

Загрузка и первичный просмотр данных

В начале установим библиотеку haversine, которая поможет в вычислении расстояний между географическими точками:

Импортируем необходимые для работы библиотеки:

Записываем данные в датафрейм df:

В датасете данные о 8406 объектах общественного питания. Имеются полные данные о категориях, адресах и районах расположения заведений, их координатах, рейтинге и о том, является ли заведение сетевым. Не для всх заведений указаны часы работы, категория цен, диапазон среднего счета, средний счет, средняя стоимость чашки каппучино и количество посадочных мест.

Названия столбцов и форматы данных не вызывают нареканий

Предварительная обработка данных

Проверка на наличие дубликатов

Сначала проверим, есть ли в данных полные дубликаты:

Полностью дублирующихся строчек нет. Теперь посмотрим как обстоит дело с неявными дубликатами. Начнем со столбца category:

В этом столбце все в порядке - неявных дубликатов нет. Теперь посмотрим на столбец с районами:

Взглянем на категории цен:

Неявных дубликатов нет, но есть пропущенные значения. Наконец, обратимся к столбцу chain, содержащему информацию о том, является ли заведение сетевым:

Проверим, нет ли дубликатов по сочетаниям имя-категория-адрес и имя-адрес, предварительно приведя все столбцы к нижнему регистру. Создадим в датафрейме df временный столбец is_duplicated, в который запишем, является ли строка дубликатом другой строки по сочетанию имя-категория-адрес:

Выведем строки-дубликаты:

Удалим из датафрейма df такие строки:

Отлично. Строчек в датафрейме стало на две меньше, дубликаты по сочетанию имя-категория-адрес пропали.

Работа с пропусками в данных

Мы выяснили, что пропуски в данных присутствуют для столбцов с часами работы hours, категорией цен price, диапазоном среднего счета avg_bill, средним счетом middle_avg_bill, средней стоимостью чашки капучино middle_coffee_cup и количеством посадочных мест seats. Посмотрим, какие доли значений пропущены в каждом из столбцов датафрейма:

Больше всего пропусков в столбцах, касающихся цен и среднего чека (price - 60.6%, avg_bill - 54.6%, middle_avg_bill - 62.5% и middle_coffee_cup - 93.6%). Также пропущено 43% значений в столбце с количеством посадочных мест seats.

Пропущенное число посадочных мест будет сложно заполнить, поскольку оно зависит как от типа заведения, так и от площади помещения, в котором располагается заведение, а такой информации у нас нет. Поэтому в столбце seats пропущенные значения числовыми значениями заменять не будем. Ценовая категория и средний счет также очень вариативные показатели. Даже рестораны/кафе одной и той же сети могут иметь одну ценовую категорию в центральных районах, и другую на окраинах. Средний счет также зависит от географического положения места и от особенностей городской среды вокруг - например, если рядом есть крупное предприятие или офисный комплекс, это может сильно изменять величину среднего чека. Поэтому, чтобы избежать искажений данных, не будем заменять пропуски и в этих полях какими-либо числовыми значениями.

Вместе с тем, когда мы будем оценивать распределение заведений по ценовым категориям и среднему чеку по районам, неплохо иметь представление о том, какая доля заведений в каждом районе не имеет ценовой категории, оценки среднего чека и числа посадочных мест. Поэтому создадим отдельный датафрейм df_dummy - копию датафрейма df, в которой вместо пропущенных значений в столбцах price, avg_bill, middle_avg_bill, middle_coffee_cup и seats будет стоять "заглушка" unknown:

Создание столбца с названием улиц

Посмотрим, как выглядят информация об адресах заведений общепита:

На первом месте всегда название города - Москва, затем запятая, пробел и название улицы/проспекта/проезда, запятая и информация о конкретном доме на данной улице. Создадим функцию street_name, которая будет из столбца с адресом извлекать только название улицы:

Применим эту функцию к датафрейму df - создадим в нем дополнительный столбец street с названием улицы:

Ту же самую операцию проделаем для датафрейма df_dummy:

Создание столбца с обозначением ежедневного круглосуточного режима работы

Посмотрим как данные о режиме работы представлены в датафрейме:

Ежедневный круглосуточный режим работы обозначен как "ежедневно, круглосуточно". Создадим в датафрейме новый столбец is_24/7 в который запишем True если заведение работает круглосуточно и без выходных, и False - если в режиме работы есть перерывы:

Получилось. То же самое сделаем для df_dummy:

В итоге предобработки данных количество строк в датафрейме df уменьшилось на две из-за удаления двух дублирующихся строк, пропуски не заполнялись, а число столбцов увеличилось на два - street и 24/7. Также был создан отдельный датафрейм df_dummy, в котором пропуски были заменены строкой unknown.

Исследовательский анализ данных

Распределение заведений Московского общепита по категориям

Самыми многочисленными заведениями общественного питания в Москве являются кафе и рестораны - 2378 и 2043, соответственно. На третьем месте кофейни - 1413 заведений. Баров - 765, пиццерий - 633, заведений быстрого питания - 603, столовых - 315, булочных - 256. Похоже, в Москве не любят булочки.

Количество посадочных мест в заведениях разных категорий

При работе с количеством посадочных мест необходимо помнить, что эта информация указана только для 57% заведений из датасета. Посмотрим, достаточно ли у нас данных о посадочных местах по каждой категории:

Даже в самых немногочисленных категорях мы имеем выборку как минимум в полторы сотни значений. Этого вполне достаточно, чтобы оценить среднее или медиану по категориям

Для начала посмотрим на распределения количества посадочных мест в каждой категории:

Видно, что распределения асимметричные, присутствуют выраженные выбросы - заведения, в которых более 1000 посадочных мест. Лучше характеризовать такие распределения медианными значениями.

Построим боксплоты, на которых покажем данные о медианном числе посадочных мест по категориям заведений. Сразу выберем диапазон возможных значений числа посадочных мест так, чтобы были видны различия между разными типами заведений:

Самое большое медианное число посадочных мест в ресторанах (86), барах (82) и кофейнях (80). Затем следуют столовые (76), заведения быстрого питания (65), кафе (60), пиццерии (55) и булочные (50). В целом, можно сказать, что различия в количестве посадочных мест между категориями заведений не слишком велики. Можно заметить, что в барах, заведениях быстрого питания, кофейнях и ресторанах число посадочных мест в 75% заведений находится в пределах 150, а в булочных, кафе, пиццериях и столовых - в пределах 120.

Соотношение сетевых и несетевых заведений в датасете

Посчитаем сколько сетевых и несетевых заведений в датасете:

Построим круговую диаграмму:

Доля несетевых заведений составляет 61.9%, сетевых - 38.1%

Какие категории заведений чаще являются сетевыми?

Самую большую долю сетевых заведений составляют кафе - 24.3% (779 точек). На втором и третьем местах с практически одинаковыми долями рестораны - 22.8% (730 заведений) и кофейни - 22.5% (720 заведений). Пиццерии, точки быстрого питания, бары, булочные и столовые в сумме составляют около 1/3 всех сетевых заведений (30.4%)

Теперь посмотрим какой процент заведений в каждой категории является сетевым:

Несмотря на то, что в абсолютном выражении булочные и пиццерии составляют малую часть всех сетевых заведений московского общепита, 61.3% булочных и 52.1% пиццерий - сетевые заведения. На третьем месте по доле сетевых заведений кофейни (51%). Реже всего сетевыми бывают бары/пабы (22.1% заведений).

Топ-15 популярных сетей общепита в Москве

Создадим сводную таблицу по сетевым заведениям. В качестве индексов будут названия заведений, а в качестве значений - количество заведений с таким названием:

У Яндекс Лавки есть дублирующееся название. Приведем все к одному названию:

Также видим, что у некоторых сетей лишь одно заведение в списке. Это может быть, как минимум, по двум причинам: 1) ошибка внесения данных; 2) это на самом деле сеть заведений, но остальные заведения сети находятся в других городах. Посмотрим, много ли таких сетей из одного заведения:

64 сетевых заведения. При этом часть из них, скорее всего, на самом деле сети, а часть внесена по ошибке. Даже если допустить что половина записей ошибочные, они составят менее 1% от общего числа сетевых заведений. Маловероятно, что это окажет значимое влияние на дальнейший анализ.

Теперь отобразим 15 сетей с самым большим числом заведений в Москве:

На первом месте - Шоколадница со 120 заведениями, на втором Домино'с Пицца - 76 пиццерий, на третьем Додо пицца - 72 пиццерии. Интересно, что несмотря на присутствие двух крупных пиццерий в топ-3 сетевых заведений, пиццерии как таковые, как мы выяснили в прошлом пункте, составляют лишь 10.3% от общего числа всех сетевых заведений.

Построим похожий график c указанием категорий заведений, которые входят в состав топ-15 сетей:

Построим такой же график с помощью plotly, чтобы можно было в интерактивном режиме посмотреть сколько заведений определенной категории входит в состав сети:

В топ-3 сетей общепита: Шоколадница (120 заведений), Домино'с Пицца (76) и Додо Пицца (74). При этом они являются преимущественно монокатегорийными. Лишь у Шоколадницы из 120 заведений - 1 кафе, а все остальные - кофейни. Возможно, это просто ошибка записи в датасете. Также полностью или почти монокатегорийные сети из топ-15 - Яндекс Лавка (рестораны), One Price Coffee, Cofix, КОФЕПОРТ, CofeFest (кофейни), Кулинарная лавка братьев Караваевых (кафе), Prime (рестораны). Другие сети в той или иной степени поликатегорийны.

В сетевом топе практически нет баров и столовых. Судя по тому, какие сети мы видим среди самых популярных - очень важным фактором успеха является опция доставки еды. Кроме того, значительная часть топа - заведения, которые можно открыть, купив франшизу (Шоколадница, Домино'c Пицца, Додо Пицца, Яндекс Лавка, One Price Coffee, Cofix, КОФЕПОРТ, Кулинарная лавка братьев Караваевых...)

Какие административные районы Москвы присутствуют в датасете?

Создадим сводную таблицу, в которой отразим число точек общепита в каждом из представленных районов города по типам заведения:

Построим график:

Первое, что бросается в глаза - число заведений в Центральном административном округе (ЦАО) более чем в два раза превышает число заведений в любом другом округе. В ЦАО более двух тысяч точек общественного питания, тогда как в других районах оно не достигает и одной тысячи. Меньше всего общепита в Северо-Западном административном округе - около 400 точек

Второе - во всех округах, кроме Центрального, тройка лидеров по типу заведений выглядит следующим образом: на первом по численности месте - кафе, на втором - рестораны, на третьем - кофейни. В Центральном округе тройка лидеров такая же, но ресторанов больше чем кафе

Третье - в ЦАО очень большое количество баров и пабов (364), тогда как во всех других районах вместе взятых их 401:

Абсолютное количество заведений в районе нельзя считать достоверным показателем развития гастрономической инфраструктуры, т.к. площадь районов разная, и от нее зависит результирующая плотность заведений в конкретном районе.

Средние рейтинги заведений по типам (рестораны, кафе, кофейни и т.д.)

Получим таблицу со средними и медианными рейтингами заведений по категориям:

Построим боксплот без лимита по оси x, покажем на графике средние значения и стат. выбросы и оценим форму распределений рейтингов:

Для всех типов заведений подавляющее большинство значений рейтинга находится между 3.5 и 5.0. Все распределения имеют "хвосты" растянутые влево. Это значит, что небольшая часть заведений имеет рейтинги ниже чем 3.5. Причем среди точек быстрого питания и кафе таких заведений больше, чем среди других категорий.

Уберем с боксплотов, построенных выше, выбросы, и сравним средние рейтинги:

Средние рейтинги находятся в пределах 4.05-4.39. При этом самое высокое среднее значение рейтинга у баров и пабов (4.39), а самые низкие - у заведений быстрого питания (4.05) и кафе (4.12). Для остальных категорий средние рейтинги лежат в пределах 4.2-4.3. Похоже, что у пабов самая благодарная публика, а может быть дело в том, что половина пабов находится в Центральном округе и волей-неволей приходится держать марку из-за высокой конкуренции. Низкие оценки точек быстрого питания - частая история, поскольку отношение к ним противоречивое, и всегда находятся желающие покритиковать фастфуд просто за то, что он им является.

Фоновая картограмма (хороплет) со средним рейтингом заведений каждого района

Создадим карту с центром в центром Москвы:

Добавим хороплет и значения среднего рейтинга на карту:

Хороплет показывает, что лучше всего дела с рейтингом заведений обстоят в Центальном административном округе, также сравнительно высокие рейтинги имеют заведения Северо-Западного и Северного административных округов. Хуже всего с рейтингом у заведений Юго-Восточного административного округа.

Отображение заведений на карте при помощи кластеров

Снова создадим чистую карту Москвы:

Создадим пустой кластер cluster и добавbм его на карту:

Напишем функцию, которая будет построчно извлекать из датафрейма df информацию о широте и долготе, а также о названии и рейтинге заведения, создавать маркер с соответствующими параметрами и добавлять его в кластер cluster:

Добавляем маркеры в кластер и отображаем карту:

Хороплет отлично демонстрирует высокую концентрацию заведений в центре, на севере и юго-западе.

Топ-15 улиц по количеству заведений

Создадим сводную таблицу с названиями улиц и числом заведений:

По числу заведений общепита лидирует проспект Мира (184 точки), на втором месте - Профсоюзная улица (122), на третьем - проспект Вернадского (108). Замыкает топ-15 Пятницкая улица (48 заведений).

Теперь посмотрим, как распределены заведения по категориям на этих улицах:

На большинстве улиц из топ-15 преобладают кафе и рестораны с примерно равномерным распределением между этими двумя категориями. Исключение составляет МКАД, на котором 45 кафе и лишь пять ресторанов, что вполне объяснимо: кафе, вероятнее всего располагаются на заправочных станциях, а сидеть в ресторане на МКАДе - затея так себе. На Пятницкой улице, Ленинградском проспекте и Ленинградском шоссе, наоборот, много ресторанов и мало кафе. Вероятно, расположение этих улиц больше располагает к более серьезному гастрономическому подходу.

Улицы, на которых только один объект общепита

Итак, в Москве 458 улиц, на которых только по одному объекту общепита. Чисто теоретически можно предположить, что это либо очень короткие улицы, либо улицы в спальных районах или промзонах. Чтобы проверить эти предположения, нанесем маркеры с местоположением этих заведений а карту. Создадим карту и кластер:

Cоздадим датафрейм df_one_place, в который войдут только о тех заведениях, которые являются единственными на своей улице:

Добавим маркеры этих заведений на карту:

По карте видно, что как в центре города так и на окраинах есть заведения, которые являются единственными на своей улице. Более детальное рассмотрение карты показывает, что в действительности многие из таких завдений располагаются на коротких улицах или в переулках. На окраинах они есть в парках, промзонах и спальных районах.

Посмотрим, к каким категориям общепита относятся такие заведения:

Присутствуют заведения всех категорий. Посмотрим, какой процент от общего числа заведений по категориям в Москве являются единственными на своей улице. Для этого сначала посчитаем все заведения Москвы по категориям:

Объединим таблицы:

Рассчитаем процент:

А вот и интересная находка - самый большой процент заведений, которые являются единственными на своей улице, среди столовых - 11.4 %

Посмотрим, где они расположены:

В пределах Садового кольца таких столовых только две. Я не очень хорошо знаю Москву, но рискну предположить, что многие из них - столовые, расположенные рядом с крупными производственными предприятиями.

Посмотрим, отличается ли средний рейтинг столовых, которые являются единственными заведениями общепита на своей улице, от среднего рейтинга всех столовых по Москве. Возможно, отсутствие конкуренции приводит к снижению качества обслуживания?

Медианные рейтинги вообще не различаются (4.3), а средний даже несколько ниже в общем по Москве. Предположение о снижении качества обслуживания в столовых, являющихся единственным общепитом на своей улице, не подтверждается.

Как медианный чек заведений меняется от округа к округу?

Проанализируем цены на общепит в каждом районе. Для этого используем показатель среднего чека заведений. Создадим сводную таблицу с названием округов и медианным средним чеком:

Самый большой средний чек в заведения общепита, расположенных на территории Центрального и Западного административных округов (1000 рублей). На третьем месте - Северо-Западный административный округ (700 рублей). Самый низкий средний чек в Юго-Восточном округе.

Визуализируем полученные данные на фоновой картограмме:

Как расстояние от центра города влияет на средний чек в заведениях общественного питания Москвы? (доп. задание)

Попробуем более подробно изучить зависимость среднего чека в заведениях от расстояния до центра города: для этого создадим функцию get_distance, которая будет по координатам центра города и координатам заведения определять расстояние между ними по прямой в километрах:

Создадим в датафрейме новый столбец distance и запишем туда расстояние от центра города до заведения, округленное до километра:

Создадим сводную таблицу, в которую запишем медианны значения среднего чека в зависимости от расстояния и типа заведения:

Выполним бегущее усреднение, чтобы сгладить всплески медианного чека на отдельных расстояниях:

График демонстрирует, что медианный средний чек снижается с увеличением расстояния от центра города для большинства категорий заведений. Самую сильную зависимость от расстояния демонстриует мединанный средний чек для булочных и пиццерий (так, например, в центре города средний чек в пиццерии составляет 1250 рублей, а в 19 км от центра - 530 рублей). Средние чеки в барах и ресторанах в центре около 1250 рублей а на окраине - меньше 1000 рублей. Средний чек в кафе в центре города - 800 рублей, на окраине - 587. Практически не подвержены изменениям в зависимости от расстояния до центра только средние чеки в столовых (300-400 рублей).

Общие выводы из исследовательского анализа рынка заведений общественного питания Москвы

  1. В Москве представлены восемь категорий заведений общественного питания: кафе, рестораны, кофейни, бары и пабы, пиццерии, точки быстрого питания, столовые и булочные. Самые многочисленные из них - кафе (2378), рестораны (2043) и кофейни (1413) составляют около 2/3 всех заведений московского общепита.
  2. Количество поcадочных мест в заведениях значительно варьирует, однако медианные значения числа посадочных мест в заведениях разных категорий различаются не слишком сильно: наиболее вместительными можно считать рестораны, кофейни, пабы/бары и столовые с медианным числом посадочных мест 86, 80, 82 и 76, соответственно. Несколько меньшую вместимость по медианным значениям числа посадочных мест имеют булочные, точки быстрого питания, кафе и пиццерии (50, 65, 60 и 55 посадочных мест, соответственно).
  3. Почти 62% заведений, представленных в датасете несетевые, 38% - сетевые. При этом в абсолютном числовом выражении кафе, рестораны и кофейни составляют почти 2/3 всех сетевых заведений. Так происходит потому, что именно эти категории самые многочисленные.
  4. Доля сетевых заведений выше всего среди булочных (61.3%) и пиццерий (52.1%). На третьем месте по доле сетевых заведений кофейни (51%). Реже всего сетевыми бывают бары/пабы (22.1%).
  5. Три самых популярных сети общественного питания в Москве (если судить по числу заведений) это Шоколадница (120 точек), и пиццерии Домино'с Пицца (76 точек) и Додо Пицца (74 точки).
  6. Анализ распределения заведений общепита по округам Москвы показывает, что больше всего точек общественного питания в Центральном округе (более 2000), при этом в остальных округах это число не превышает 1000.
  7. В Центральном округе больше ресторанов чем кафе, тогда как в остальных округах число кафе больше чем ресторанов. Также в Центральном округе сконцентрировано около половины всех московских баров и пабов.
  8. Самый высокий средний рейтинг у баров и пабов (4.39), а самый низкий - у точек быстрого питания (4.05). Похоже, что у баров и пабов самая благодарная публика, а может быть дело в том, что половина этих заведений находится в Центральном округе и волей-неволей приходится держать марку из-за высокой конкуренции. Низкие оценки точек быстрого питания - частая история, поскольку отношение к ним противоречивое, и всегда находятся желающие покритиковать фастфуд просто за то, что он им является.
  9. Среди округов Москвы лидером по среднему рейтингу заведений является Центральный округ (4.37), второе и третье место занимают Северный и Северо-Западный административные округа (4.24 и 4.21). Самый низкий средний рейтинг у заведений Юго-Восточного административного округа (4.10).
  10. Лидерами по числу заведений общепита среди улиц являются пр.Мира (184 точки), ул.Профсоюзная (122) и пр.Вернадского (108).
  11. В Москве есть улицы, на которых расположено только одно заведение общепита. Чаще всего такими заведениями являются столовые: 11.4% всех столовых - единственные точки общепита на своей улице.
  12. Самый высокий медианный средний чек в заведениях Центрального и Западного административных округов (1000 рублей). Самый низкий - в Юго-Восточном административном округе (450 рублей).
  13. Для большинства категорий заведений общепита медианный средний чек снижается с увеличением расстояния от центра города. Наиболее выраженное снижение наблюдается для булочных и пиццерий, несколько меньшее - для баров и пабов, кофеен, кафе и ресторанов. Для столовых зависимость медианного среднего чека от расстояния до центра города не выявляется.

Детализация исследования под открытие кофейни

В этом разделе дадим ответы на некоторые вопросы, которые помогут понять особенности московских кофеен и позволят инвесторам принять правильные решения.

Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?

Посчитаем все кофейни в датасете:

Посмотрим, как кофейни распределены по административным округам:

Всего в датасете 1413 кофеен. 30.3% из них сконцентрированы в Центральном округе, на втором месте - Северный округ (13.7%), на третьем - Северо-Восточный (11.3%). Меньше всего кофеен приходится на долю Северо-Западного административного округа - лишь 4.39%

Есть ли круглосуточные кофейни?

Наверняка такие существуют. Проверим. Создаем таблицу, в которую поместим число кофеен, работающих 24/7, по районам:

Ожидаемо, по абсолютному числу круглосуточных кофеен лидирует Центральный округ. Но это потому что в нем в принципе много кофеен.

Теперь посчитаем, какой процент кофеен в каждом районе работает круглосуточно:

Проиллюстрируем на фоновой картограмме:

Самый высокий процент круглосуточных кофеен в Юго-Западном, Центральном и Западном округах (7.3, 6.1 и 6.0 %). Хуже всего дела с круглосуточными кофейнями обстоят в Южном и Юго-Восточном округах (их около 1%). Возможно, открытие круглосуточного заведения в одном из этих районов - неплохая идея. Конкуренция будет невысока.

Какие у кофеен рейтинги? Как они распределяются по районам?

Для начала посмотрим на распределение рейтингов всех кофеен Москвы:

Медианный рейтинг кофеен 4.3, 50% кофеен имеют рейтинг в диапазоне от 4.1 до 4.4, минимальный рейтинг 1.4, масимальный - 5.0. Визуализируем распределение при помощи гистограммы:

Теперь посмотрим как рейтинги кофеен распределены по районам Москвы:

В целом можно сказать, что рейтинги кофеен от округа к округу не отличаются друг от друга - медианный рейтинг во всех округах, за исключением Западного, равен 4.3. Есть округа, в которых средний рейтинг чуть ниже, чем в остальных, но это, по-видимому, связано с наличием отдельных завдений с низким рейтингом, которые смещают среднее.

На какую стоимость чашки капучино стоит ориентироваться при открытии кофейни?

Для начала посмотрим, какой информацией мы располагаем относительно средней стоимости чашки капучино:

Всего у 535 заведений эта метрика указана. Выясним, что это за заведения:

В подавляющем большинстве случаев это кофейни (521 запись). Помня о том, что у нас в датасете есть записи о 1413 кофейнях, можем заключить, что мы располагаем данными о средней стоимости чашки капучино примерно для 37% кофеен. Это хорошая выборка, однако может случиться так, что средняя стоимость чашки капучино будет указана в основном для высокорейтинговых заведений. Посмотрим, отличается ли распределение рейтингов заведений с указанной средней стоимостью чашки капучино от распределения рейтингов кофеен без указания этой стоимости. Для этого создадим в df новый столбец coffee_price_indicated, в который запишем True если цена указана и False если не указана:

Построим гистограммы:

В целом, распределения похожи по форме, и, скорее всего, наша выборка репрезентативна. Теперь посмотрим, достаточно ли данных по районам города, вычислив процент кофеен с указанной средней стоимостью чашки капучино:

Выраженных "провалов" по районам не заметно. Можем оценивать стоимость чашки по всему городу и отдельно по районам:

Медианная стоимость чашечки капучино в Москве - 170 рублей, половина кофеен предлагает капучино в ценовом диапазоне 124-225 рублей. Минимальная сумма, которую придется отдать в Москве за чашку капучино - 60 рублей, максимальная - 1568 рублей. Дороговато для чашки капучино, посмотрим, где такие цены:

Похоже, ошибка записи. Удалим эту строку:

Теперь посмотрим как обстоят дела с ценой на капучино в разных районах города:

Для более наглядной визуализации создадим таблицу с медианной стоимостью капучино по районам и построим хороплет:

Мединная стоимость чашки капучино в Москве 170 рублей. Однако в зависимости от района города эта стоимость несколько различается: так, дороже всего капучино обойдется в Центральном, Западном и Юго-Западном округах (190-200 рублей), несколько дешевле - в Южном, Северо-Западном, Северо-Восточном и Юго-Восточном окргуах (150-165 рублей), дешевле всего медианная чашка капучино стоит в Восточном административном округе - 135 рублей. При открытии кофейни стоит ориетироваться на медианную цену капучино в районе, где предполагается разместить заведение.

Общиие рекомендации по открытию кофейни

  1. Кофейни входят в топ-3 типов заведений общественного питания Москвы поколичеству (1412 точек). Поэтому логично будет открывать кофейню в районе, где их количество еще не слишком велико и, следовательно, ниже конкуренция: такими районами являютя Северо-Западный, Юго-Западный и Юго-Восточный округа Москвы.
  2. Чтобы цены в кофейне были доступными для среднего москвича, желательно открывать ее в том районе, где рейтинг цен невысок, ведь рейтинг цен отражает суммарные затарты на работу заведения, в т.ч. аренду, стоимость которой отличается от района к району. Среди перечисленных в п.1 районов, такими являются Северо-Западный и Юго-Восточный районы Москвы (медианная цена чашки кофе 159 и 148 рублей - ниже чем в среднем по Москве).
  3. Кроме того, в Северо-Западном и Юго-Восточном районах Москвы крайне мало круглосуточных кофеен. Предоставление сервиса 24/7 может стать конкурентным преимуществом перед другими заведениями.
  4. Если доступность цен в кофейне не является принципиальной для инвесторов - то можно рассмотреть в качестве варианта Юго-Запад Москвы (здесь кофеен еще не слишком много - 6.8% от общего числа московских кофеен, но медианная чашка капучино уже существенно дороже чем на Северо-Западе и Юго-Востоке - 198 рублей). Это указывает на высокую стоимость аренды и других операционных расходов.
  5. Рынок кофеен Москвы более чем на 50 процентов представлен сетевыми заведениями, у которых, за счет больших объемов закупок, операционные расходы в пересчете на одно заведение будут ниже, чем у единственной в своем роде кофейни. Это дает сетям преимущество. Кроме того, конкурировать с сетевыми заведениями сложнее, т.к. они хорошо узнаются клиентами. Размещение несетевого заведения поблизости с сетевым почти наверняка приведет к тому, что значительная часть потенциальных клиентов предпочтет второе. Поэтому можно рекомендовать в тех районах, про которые сказано выше, искать места, где не будет нежелательного соседства с крупной сетью кофеен и/или кафе.
  6. Если для инвесторов не является принципиальным неповторимый индивидуальный стиль кофейни, то можно рассмотреть вариант франчайзинга. Значительная доля успешных сетевых заведений Москвы работает по франчайзинговой модели. Это дает множество преимуществ - начиная с готовой модели ведения бизнеса и заканчивая хорошей узнаваемостью клиентами.

Презентация

Ссылка на файл с презентацией: https://drive.google.com/file/d/1uzSVtqs0woYghSzAgQWGE9HqPuWr-I2I/view?usp=sharing